智能论文笔记

An Explainable Machine Learning Approach to Visual-Interactive Labeling: A Case Study on Non-communicable Disease Data

Donlapark Ponnoprat , Parichart Pattarapanitchai , Phimphaka Taninpong , Suthep Suantai

分类：机器学习 | (统计)机器学习

2022-09-26

我们引入了一种新的视觉相互作用工具：可解释的标签助手（Xlabel），该工具采用可解释的机器学习方法来进行数据标记。 Xlabel的主要组成部分是可解释的增强机（EBM），该预测模型可以计算每个输入特征对最终预测的贡献。作为案例研究，我们使用Xlabel来预测四种非传染性疾病（NCD）的标签：糖尿病，高血压，慢性肾脏疾病和血脂异常。我们证明EBM是通过将基于规则和其他四个机器学习模型进行比较，是预测模型的绝佳选择。通过对427个病历进行5倍的交叉验证，EBM的预测准确性，精度和F1得分在所有四个NCD中均大于0.95。它执行了两个黑盒模型，并且在这些指标中的其他模型都优于其他模型。在另一项实验中，当有意误标记记录时，EBM可能会回想起这些记录中90％以上的正确标签。

translated by 谷歌翻译

Wasserstein距离提供了概率度量之间的差异概念，该概率度量最近在学习具有不同大小（例如图像和文本文档）的结构化数据方面应用了。在这项工作中，我们研究了Wasserstein距离下的$ K $ - 最终邻居分类器（$ k $ -nn）的概率度量。我们表明，$ K $ -NN分类器在$（0,1）$中支持的措施空间中并不普遍。由于任何欧几里得球都包含$（0,1）$的副本，因此不应该期望在没有对基本公制空间或Wasserstein空间本身的限制的情况下获得普遍的一致性。为此，通过$ \ sigma $ -finite度量尺寸的概念，我们表明$ k $ -nn分类器在$ \ sigma $ - 均匀离散集中支持的度量空间上普遍一致。此外，通过研究Wasserstein空间的地球结构，价格为$ P = 1 $和$ P = 2 $，我们表明$ k $ -nn分类器在有限套装的措施中普遍一致，高斯度量的空间，以及以有限小波序列表示的密度的度量空间。

translated by 谷歌翻译